该报告探索了包含4898条白葡萄酒质量相关参数的数据集。
## 'data.frame': 4898 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## vars n mean sd median trimmed mad
## X 1 4898 2449.50 1414.08 2449.50 2449.50 1815.44
## fixed.acidity 2 4898 6.85 0.84 6.80 6.82 0.74
## volatile.acidity 3 4898 0.28 0.10 0.26 0.27 0.09
## citric.acid 4 4898 0.33 0.12 0.32 0.33 0.09
## residual.sugar 5 4898 6.39 5.07 5.20 5.80 5.34
## chlorides 6 4898 0.05 0.02 0.04 0.04 0.01
## free.sulfur.dioxide 7 4898 35.31 17.01 34.00 34.36 16.31
## total.sulfur.dioxide 8 4898 138.36 42.50 134.00 136.96 43.00
## density 9 4898 0.99 0.00 0.99 0.99 0.00
## pH 10 4898 3.19 0.15 3.18 3.18 0.15
## sulphates 11 4898 0.49 0.11 0.47 0.48 0.10
## alcohol 12 4898 10.51 1.23 10.40 10.43 1.48
## quality 13 4898 5.88 0.89 6.00 5.85 1.48
## min max range skew kurtosis se
## X 1.00 4898.00 4897.00 0.00 -1.20 20.21
## fixed.acidity 3.80 14.20 10.40 0.65 2.17 0.01
## volatile.acidity 0.08 1.10 1.02 1.58 5.08 0.00
## citric.acid 0.00 1.66 1.66 1.28 6.16 0.00
## residual.sugar 0.60 65.80 65.20 1.08 3.46 0.07
## chlorides 0.01 0.35 0.34 5.02 37.51 0.00
## free.sulfur.dioxide 2.00 289.00 287.00 1.41 11.45 0.24
## total.sulfur.dioxide 9.00 440.00 431.00 0.39 0.57 0.61
## density 0.99 1.04 0.05 0.98 9.78 0.00
## pH 2.72 3.82 1.10 0.46 0.53 0.00
## sulphates 0.22 1.08 0.86 0.98 1.59 0.00
## alcohol 8.00 14.20 6.20 0.49 -0.70 0.02
## quality 3.00 9.00 6.00 0.16 0.21 0.01
数据集由13个变量组成,具有4898条观测值,每个变量的解释如下:
1、X:序号
2、fixed acidity:固定酸度
3、volatile acidity:挥发性酸度
4、citric acid:柠檬酸
5、residual sugar:残糖
6、chlorides:氯化物
7、free sulfur dioxide:游离二氧化硫
8、total sulfur dioxide:总二氧化硫
9、density:密度
10、pH:pH 值
11、sulphates:硫酸盐
12、alcohol:酒精度
13、quality:质量 - 0 到 10 之间的得分
删除‘X’变量后,再次评估数据集,发现有3961条有效数据,937条重复数据,占了原数据的19.13%。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.839 7.300 14.200
固定酸度最小值为3.8,最大值为14.2,中位数为6.8,平均值为6.839,平均值与中位数接近。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2100 0.2600 0.2805 0.3300 1.1000
挥发性酸度为右偏态,最小值为0.08,最大值为1.1,中位数为0.26,平均值为0.2805。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3343 0.3900 1.6600
白葡萄酒柠檬酸为右偏态,但在0-0.75范围内,呈现正态分布,其中最小值为0,最大值为1.66,中位数为0.32,平均值为0.3343。怀疑最大值为异常值,查看所有大于1的值。
## fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 629 7.4 0.20 1.66 2.1 0.022
## 2586 7.6 0.25 1.23 4.6 0.035
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates
## 629 34 113 0.99165 3.26 0.55
## 2586 51 294 0.99018 3.03 0.43
## alcohol quality
## 629 12.2 6
## 2586 13.1 6
柠檬酸大于1的值有2行,移除异常值。
异常值移除后基本呈正态分布。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.600 4.700 5.916 8.900 65.800
残糖最大值与数据总体分布较远,怀疑为异常值,目测数据
## fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1395 7.9 0.330 0.28 31.6 0.053
## 2295 7.8 0.965 0.60 65.8 0.074
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates
## 1395 35 176 1.01030 3.15 0.38
## 2295 8 160 1.03898 3.39 0.69
## alcohol quality
## 1395 8.8 6
## 2295 11.7 6
大于30的值有2个,移除异常值。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.600 4.700 5.894 8.800 26.050
移除异常值后的残糖数据为长尾数据,需要将其转换。
白葡萄酒残糖数据最小值为0.6,最大值为26.05,中位数为4.7,平均值为5.894。将其转换后,呈双峰态,第一个峰值在1.7,第二个峰值在9左右。
氯化物分布为长尾数据,使用对数函数将其转换。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04200 0.04591 0.05000 0.34600
白葡萄酒氯化物数据最小值为0.009,最大值为0.346,中位数为0.042,平均值为0.0459。对氯化物数据进行转换后,呈正态分布。
## fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 3828 6.1 0.26 0.25 2.9 0.047
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates
## 3828 289 440 0.99314 3.44 0.64
## alcohol quality
## 3828 10.5 3
异常值有1个,为最大值,移除异常数据。
移除异常值的游离二氧化硫为右偏态,对其进行转换。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 33.00 34.83 45.00 146.50
游离二氧化硫最小值为2,最大值为146.5,中位数为33,平均值为34.83。进行对数转换后,峰值在30左右。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 106.0 133.0 137.1 166.0 366.5
总二氧化硫最小值为9,最大值为366.5,中位数为133,平均值为137.1。在0-300的范围内呈正态分布。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9916 0.9935 0.9938 0.9957 1.0030
密度数据平均值为0.9938,中位数为0.9935,最大值1.003,最小值0.9871,整体呈正态分布。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.720 3.090 3.180 3.195 3.290 3.820
pH值呈正态分布,峰值在3.1-3.2左右。
硫酸盐呈右偏态,将其转换。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.4100 0.4800 0.4903 0.5500 1.0800
转换后的硫酸盐基本呈正态分布,但在峰值部分离散较大。最小值0.22,最大值1.08,中位数0.48,平均值0.4903.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.59 11.40 14.20
酒精度数据没有呈现出特别明显的正态分布,最小值为8,最大值为14.2,中位数为10.4,平均值为10.59。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.855 6.000 9.000
白葡萄酒质量等级基本呈正态分布,质量小于6的葡萄酒数量逐渐减少,品质大于6的葡萄酒数量逐渐减少的同时,其稀有程度大于质量小于6的白葡萄酒。最小值3,最大值9,中位数6,平均值5.855.
数据集中有3956条数据,具有12个变量(固定酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH、硫酸盐、酒精度、质量等级)。其中有序变量为白葡萄酒质量,质量由差到好的顺序为0、1、2、3、4、5、6、7、8、9、10。
其他发现:
大部分白葡萄酒质量等级都为6。
残糖是明显的长尾数据,对数转换后,呈双峰态。
大多数白葡萄酒酒精度在8-14之间。
酒精含量更高的白葡萄酒是否获得的评价更高。
残糖含量更高的白葡萄酒是否获得的评价更高。
pH可能对白葡萄酒评级产生影响。
没有创建新的变量。
检查数据集异常值时,发现数据有937条重复数据,占总数据的19.13%,对之后的EDA影响较大,需要移除。柠檬酸、残糖、氯化物、游离二氧化硫均有异常大的值,移除异常值后,柠檬酸呈正态分布,氯化物、游离二氧化硫、硫酸盐对数转换后,呈正态分布,残糖对数转换后呈双峰态。
## 'data.frame': 3956 obs. of 12 variables:
## $ fixed.acidity : num 7 6.3 8.1 7.2 6.2 8.1 8.1 8.6 7.9 6.6 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.32 0.22 0.27 0.23 0.18 0.16 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.16 0.43 0.41 0.4 0.37 0.4 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 7 1.5 1.45 4.2 1.2 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.045 0.044 0.033 0.035 0.04 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 30 28 11 17 16 48 ...
## $ total.sulfur.dioxide: num 170 132 97 186 136 129 63 109 75 143 ...
## $ density : num 1.001 0.994 0.995 0.996 0.995 ...
## $ pH : num 3 3.3 3.26 3.19 3.18 3.22 2.99 3.14 3.18 3.54 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.47 0.45 0.56 0.53 0.63 0.52 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.6 11 12 9.7 10.8 12.4 ...
## $ quality : Factor w/ 7 levels "3","4","5","6",..: 4 4 4 4 4 4 3 3 3 5 ...
白葡萄酒酒精度与质量的频谱图,并不能很好的反应酒精度对白葡萄酒质量的影响。
从频谱图和堆叠图综合反应出,质量为5和6的白葡萄酒占了很大的部分,由于质量5和6的白葡萄酒占比太高,很难观测其他质量白葡萄酒的情况。
箱线图反应了白葡萄酒质量与酒精度的一些关系,质量为7-9的酒,酒精度中位数依次升高,中位数最低大约在11.5左右,最低大约在12.5左右,酒精度小于11的酒,整体质量较低。
残糖较高的白葡萄酒,质量在5-6居多,质量最好的酒,残糖中位数最低。
中位数与第三个四分位数随着质量的提高,pH呈先降后升的趋势。第一个四分位数随着质量的提高,pH一直呈上升趋势。
酒精度与质量有相关性,随着质量的提高,酒精度先降后升,质量最高的白葡萄酒,整体酒精度处于比较高的水平。
残糖与质量有相关性,但是相关性强度不明显,质量7-9的白葡萄酒,残糖较质量3-6相比,整体偏低,猜测残糖含量低的白葡萄酒获得高质量评价的概率大。
pH与质量相互关联,质量越高,pH越高。
pH与质量相呈正相关且相关性较强,酒精度与质量有相关性,但相关性程度不及pH与质量,残糖与质量相关性不明显。
pH与酒精度、质量没有明显关系。酒精度和质量有相关性,酒精度越高,颜色越深,说明白葡萄酒质量随着酒精度升高而提升。
残糖、pH、质量之间相关性不明显。
随着酒精度的升高,白葡萄酒残糖逐渐降低,酒精度与残糖负相关性强。
在多变量分析中,残糖、酒精度、pH、质量之间均未发现有相互促进的特性。
酒精度与残糖之间存在负相关性,酒精度越高,白葡萄酒残糖含量越小。
未找到相关性特别强的变量,未创建任何数据集模型。
白葡萄酒质量呈正态分布,这说明在一般情况下,质量特别差和特别好的酒均不容易出现。
pH与质量相互关联,pH越高,白葡萄酒质量越好。
酒精度与残糖之间呈负相关,酒精度越高,白葡萄酒残糖含量越小。
选择数据集后,只是简单查看了数据集是否有空值,在单变量分析的过程中才发现该数据集有重复值,回过头再重新对数据集进行了清理,浪费了一些时间。
在处理数据的过程中,感到数据量较小,有的数据过于离散,不太容易观察到相关性。同时该数据集分类变量只有一个“质量”,缺乏对比数据,也许将未选择的红葡萄酒数据合并至该数据集,能找到更多有关联的变量。